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ii 要 


语言 和 音乐 在 呈现 过 程 中 ,小 单元 相互 结合 组 成 更 大 的 单元 , 最 终 形成 层级 结构 。 已 有 研究 表明 ， 听 


者 能 够 将 连续 的 语 流 和 音乐 切 分 成 层级 结构 ， 并 在 大 脑 中 形成 层级 表征 ,在 感知 基础 之 上 ， 听 者 还 能 将 新 出 现 
的 语言 和 音乐 事件 整合 到 层级 结构 之 中 ,形成 连贯 理解 ， 最 终 顺 利 地 完成 交流 过 程 . 未 来 研究 应 剖析 边界 线索 
在 层级 结构 感知 中 的 作用 ,考察 不 同 层 级 整合 过 程 的 影响 因素 ,进一步 探索 语言 和 音乐 层级 结构 加 工 的 关系 。 


关键 词 ”语言 ; 音乐 ; 层级 结构 ; 知觉 ; 整合 
分 类 号 ”B842 


语言 和 音乐 作为 人 类 最 重要 的 两 种 交流 系统 ， 
在 人 类 生存 和 发 展 中 扮演 了 重要 的 作用 。 由 于 语 
言 和 音乐 均 涉 及 复杂 而 有 意义 的 符号 序列 ， 对 两 
者 关系 的 思考 长 久 以 来 吸引 了 包括 哲学 家 、 诗 人 、 
语言 学 家 、 音 乐 学 家 等 思想 家 的 关注 ， 近 些 年 来 
也 在 现代 认 知 科学 领域 掀起 了 对 比 研究 热潮 
(Patel, 2010; Patel & Morgan, 2017; 叶 铮 ， 周 晓 林 ， 
2006)。 其 中 ， 层 级 结构 就 是 两 者 都 具有 的 一 种 重 
要 的 组 织 特征 。 

语言 在 随时 间 展 开 过 程 中 , 会 借助 韵律 、 句 
法 、 语 义 等 语言 线索 , 将 连续 的 语 流 或 者 文字 切 
分 成 时 间 尺 度 不 同 的 结构 单元 , 包括 词语 、 短 语 、 
句子 、 段 落 乃 至 整个 篇 章 。 根 据 句法 规则 ,小 的 
结构 相互 结合 形成 时 间 尺 度 更 大 的 结构 ， 大 结构 
再 结合 起 来 ， 最 终 形 成 语言 层级 结构 (Berwick, 
Friederici, Chomsky, & Bolhuis, 2013)。 音 乐 同 样 
也 是 如 此 。 音 乐 在 呈现 过 程 中 ， 从 来 也 不 是 永 不 
停歇 地 进行 ， 而 是 根据 音乐 内 容 与 音乐 形象 的 需 
要 , 通过 不 同 的 句 读 标志 划分 出 不 同 级 别 的 句法 
结构 单元 。 音 乐 作 品 ,通过 对 这 些 句法 结构 单元 
的 组 合 与 排列 构成 一 个 完整 的 结构 系统 ,借以 陈 
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述 音乐 内 容 和 表达 音乐 形象 。 这 些 结构 单元 根据 
时 间 尺 度 依 次 增 大 ,大 致 包括 动机 、 乐 节 、 乐 句 、 
乐 段 及 其 与 它们 同 级 的 一 些 结构 形式 ， 形 成 音乐 
层级 结构 (Lerdahl & Jackendoff, 1983). 

层级 结构 在 语言 、 音 乐理 论 中 占据 着 重要 的 
地 位 ,是 语言 和 音乐 进行 结构 组 织 的 一 种 重要 手 
段 。 那 么 对 于 信息 接收 者 而 言 ， 也 就 是 当 我 们 听 
别人 说 话 或 者 欣赏 音乐 时 ， 能 和 否 感 知 到 层级 结 
构 ? 层级 结构 又 会 如 何 影响 我 们 的 理解 与 交流 ? 
近 些 年 来 ， 两 个 领域 的 研究 者 们 采用 相似 的 实验 
范式 和 实验 手段 ， 对 此 展开 了 研究 和 探讨 。 本 文 
将 围绕 这 两 个 问题 ， 对 语言 和 音乐 领域 的 相关 研 
究 进行 综述 ， 并 在 文章 最 后 提出 对 未 来 研究 的 思 
考 和 展望 。 


1 层级 结构 的 感知 


我 们 在 听 别 人 说 话 或 者 欣赏 音乐 时 ,不 是 将 
连续 的 声音 信号 知觉 为 一 个 整体 ,也 不 是 把 每 一 
个 声音 加 工 成 一 个 个 独立 的 个 体 。 在 实际 加 工 过 
EF, 我们 需要 借助 语言 和 音乐 线索 , 将 连续 的 
声音 信号 切 分 成 不 同 的 结构 单元 ， 比 如 将 语 流 切 
分 成 词语 、 短 语 和 句子 , 将 音乐 切 分 成 动机 、 乐 
节 和 乐句 。 将 连续 的 语言 和 音乐 事件 划分 出 不 同 的 
结构 单元 , 是 完成 理解 和 交流 的 一 个 基础 过 程 。 
11 语言 层级 结构 的 感知 

对 结构 的 感知 能 力 ， 即 考察 人 们 能 否 准 确 地 
划分 出 结构 边界 。 除 了 句法 和 语义 线索 , 口语 中 
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的 结构 边界 通常 还 会 伴随 一 些 韵 律 线索 ， 比 如 边 
界 前 音节 延长 、 边 界 处 音 高 重 置 、 插 和 人 无 声 段 等 
(van Petten & Bloom, 1999)。 

研究 者 们 首先 考察 了 短语 边界 的 加 工 。 
Steinhauer, Alter 和 Friederici (1999) 给 被 试听 觉 呈 
现 德语 句子 , 试图 采用 ERPs (event-related brain 
potentials) 技 术 考 察 韵律 边界 如 何 影 响 句 法 歧义 
的 消解 。 结 果 发 现 ， 对 于 包含 暂时 句法 歧义 的 句 
子 , 合适 的 韵律 切 分 有 助 于 消解 歧义 ， 此 时 被 试 
对 这 类 句子 的 加 工 与 正常 句子 没有 差异 ; 而 对 于 
句法 正常 的 句子 ,不 合适 的 韵律 切 分 反而 会 造成 
“暂时 句法 歧义 ” 表现 为 相 比 正常 句子 ， 被 试 诱 
发 出 更 大 的 N400 和 P600。 实 验 结 果 说 明 韵律 边 
界 能 够 即时 地 影响 句法 分 析 过 程 。 这 个 研究 男 外 
一 个 重要 的 结果 ,是 发 现在 每 种 实验 条 件 下 ,名 
子 的 语调 短语 边界 处 都 会 诱发 一 种 特殊 的 脑 电 成 
分 。 这 种 脑 电 成 分 的 潜伏 期 在 边界 前 音节 出 现 
400~500 ms 左右 , 分 布 位 于 头皮 中 后 部 ， 是 一 种 
正 向 脑 电 波 , 研究 者 将 之 命名 为 中 止 正 漂移 
(closure positive shift, CPS)。 当 去 掉 语 调 短语 边界 
处 的 无 声 段 后 ，CPS 仍然 出 现 ， 表 明 CPS 确实 反 
映 韵 律 边 界 加 工 ， 而 不 是 由 于 被 试 感知 到 打上 断言 
语 信号 的 停顿 产生 的 。 

为 了 进一步 确定 CPS 的 认 知 意义 , Pannekamp 
Toepel, Alter, Hahne 和 Friederici (2005) 逐 步 去 掉 
语句 中 的 语义 、 句 法 和 语音 这 些 音 段 信息 而 只 保 
留 超 音 段 的 韵律 信息 ， 结 果 在 语调 短语 边界 处 仍 
然 诱发 了 CPS， 表 明 该 成 分 的 出 现 与 音 段 信息 无 
K, 反映 纯粹 的 韵律 边界 加 工 。 此 后 ， 研 究 者 们 使 


发 了 更 大 的 正 波 , 但 是 在 统计 上 并 没有 达到 显著 
水 平 。 除 了 句子 内 部 的 边界 ， 随 后 研究 者 还 使 用 
唐 代 诗 歌 作 为 实验 材料 ， 考察 了 更 大 尺度 的 语 篇 
中 韵律 边界 的 加 工 , 不 仅 包括 句子 内 部 的 边界 ， 
还 包括 句子 之 间 的 小 句 边 界 和 联 句 边界 等 (Li & 
Yang，2010)。 结 果 发 现 相 比 于 基线 条 件 ， 所 有 边 
界 水 平 都 能 诱发 CPS, 并且 CPS 的 潜伏 期 随 着 边 
界 层级 升 高 而 发 生 系统 的 变化 。 这 些 研究 结果 共 
同 表明 ,在 语言 加 工 中 ， 人 们 能 够 感知 不 同 层级 
的 语言 结构 ， 并 在 头脑 中 形成 层级 表征 。 

那么 , 我 们 大 脑 如 何 能 同时 处 理 这 些 时 间 尺 
度 完 全 不 同 的 语言 结构 ， 即 人 们 加 工 语言 层级 结 
构 的 神经 机 制 是 什么 ? 一 些 研究 发 现 (Ding & 
Simon, 2012; Luo & Poeppel, 2007; Peelle, Gross, 
& Davis，2012)， 让 被 试 聆听 口头 语言 时 ， 被 试 大 
脑 皮层 中 神经 元 的 振荡 频率 会 逐渐 接近 音节 的 呈 
现 频率 ， 从 而 将 连续 语 流 切 分 成 不 同 的 音节 。 在 
此 基础 之 上 , Ding, Melloni, Zhang, Tian 和 Poeppel 
(2016) 考 察 了 人 们 如 何在 线 切 分 字 、 词语 、 句子 三 
个 不 同 的 层级 结构 。 实 验 中 ,给 被 试 连续 播放 四 
个 字 组 成 的 句子 , 例如 “冰雪 融化 绵羊 吃 草 .…...”， 
每 个 字 呈 现 2530 ms。 如 此 一 来 , 字 、 词 语 、 句 子 
的 呈现 频率 分 别 是 4Hz、2 Hz 和 1 Hz。 对 所 有 的 
刺激 去 除了 边界 处 的 韵律 线索 ,因此 被 试 只 能 借 
助 句 法 和 语义 线索 完成 切 分 。 对 MEG 
(magnetoencephalography) 收 集 的 数据 做 频谱 分 析 ， 
发 现 了 频率 分 别 是 4 Hz、2 Hz 和 1 Hz 的 神经 振 
荡 。 说 明 大 脑 节律 会 对 不 同 层级 的 语言 结构 形成 
层级 追踪 ,从 而 帮助 人 们 将 连续 语 流 切 分 成 时 间 


用 德语 之 外 的 语言 材料 ， 比 如 英语 、 汉 语 、 韩 语 
等 (Hwang & Steinhauer, 2011; Li & Yang, 2009; Li 
& Yang, 2010; Pauker, Itzhak, Baum, & Steinhauer, 
2011), 在 语调 短语 边界 处 均 发 现 了 CPS。 

除了 语调 短语 边界 ， 人 们 能 否 加 工 其 他 不 同 
层级 的 语言 结构 呢 ? Li Al Yang (2009) 使 用 现代 汉 
语句 子 作为 实验 材料 用 ERPs 技术 考察 句子 内 
部 三 个 不 同 层级 边界 的 加 工 , 包括 韵律 词 边界 、 
韵律 短语 边界 和 语调 短语 边界 ， 另 外 选取 双 字 词 
中 两 个 字 之 间 的 边界 (音节 边界 ) 作 为 基线 条 件 。 结 
REM, 与 基线 条 件 相 比 , 不 仅 语调 短语 边界 处 
HRT CPS, 在 层级 更 低 的 韵律 短语 边界 处 也 发 
BLY CPS, 但 是 后 者 的 潜伏 期 更 短 , 波幅 也 更 小 。 
对 于 最 低层 级 的 韵律 词 边界 , 虽然 比 基 线 条 件 诱 


尺度 不 同 的 语言 层级 结构 。 

综 上 所 述 , 人 研究 者 们 借助 认 知 神经 科学 技术 
考察 了 语言 层级 结构 的 实时 加 工 过 程 。 结 果 发 现 
人 们 能 够 借助 音 段 和 非 音 段 线索 , 将 连续 语 流 划 
分 成 时 间 尺 度 不 同 的 层级 结构 ， 并 在 大 脑 中 形成 
层级 表征 。 人 们 划分 语言 层级 结构 的 神经 机 制 ， 
可 能 是 通过 神经 振荡 追随 语言 结构 频率 实现 的 。 
12 音乐 层级 结构 的 感知 

和 语言 类 似 ， 音 乐 边界 也 伴随 一 些 结构 与 声 
学 线索 (Lerdahl & Jackendoff, 1983)。 结 构 线 索 包 
括 对 称 、 平 行 、 和 声 进行 等 因素 。 声 学 线索 指 的 
是 边界 附近 音符 在 时 长 、 音 高 、 力 度 、 音 色 等 方 
面 发生 的 变化 ,特别 是 边界 前 音符 的 延长 和 边界 
处 无 声 段 的 插入 。 
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研究 者 采用 ERPs 方法 考察 了 乐句 边界 的 感 
知 过 程 (Kn6sche et al., 2005; Nan, Knésche, & 
Friederici, 2009; Nan, Knésche, Zysset, & Friederici, 
2008; Neuhaus, Knösche, & Friederici, 2006; Silva 
et al., 2014)。 这 些 研究 的 音乐 材料 包含 两 个 乐句 ， 
原材料 的 两 个 乐句 之 间 包 含 一 个 休止 符 作 为 有 边 
界 条 件 , 将 休止 符 用 音符 填充 作为 无 边界 条 件 进 
行 对 照 。ERPs 结果 发 现 ， 相 对 于 无 边界 条 件 ， 在 
边界 处 关键 音符 (边界 后 音符 ) 出 现 之 后 500 ms 左 
右 诱发 了 一 个 双 侧 分 布 的 中 后 部 正 波 。 由 于 它 与 
言语 中 语调 短语 边界 处 诱发 的 中 止 正 漂移 有 相似 
的 波幅 和 头皮 分 布 (Steinhauer et al.，1999)， 因 此 
将 它 命名 为 音乐 CPS (Knésche et al., 2005)。 不 同 
的 是 , 音乐 CPS 通常 在 边界 后 音符 上 记录 得 到 ， 而 
语言 CPS 的 记录 位 置 是 在 边界 前 音节 。 

后 续 研 究 发 现 除了 无 声 段 ， 音 乐 CPS 还 对 其 
他 一 些 边 界线 索 敏 感 ， 包括 边界 前 音符 长 度 与 和 
声 终止 , 因此 CPS 反映 乐句 边界 的 加 工 ， 而 不 仅 
仅 是 对 停顿 的 感知 (Neuhaus et al., 2006)。 除 此 之 
外 ,对 MEG 数据 的 源 分 析 (Kn5sche et al., 2005) 
和 fMRI 的 研究 (Nan et al.，2008) 发 现 , 在 乐句 边 
界 处 激活 了 涉及 注意 和 记忆 的 加 工 脑 区 ， 说 明 
CPS 可 能 反映 更 高 层次 的 认 知 加 工 , 包括 将 刚刚 
结束 的 第 一 个 乐句 储存 在 记忆 之 中 ,以 及 将 注意 
转换 到 下 一 个 乐句 的 加 工 (Neuhaus et al., 2006)。 


者 之 间 的 比较 , 可 以 看 出 层级 边界 表征 能 力 依 赖 
于 音乐 训练 。 

在 聆听 音乐 时 , 我 们 的 大 脑 是 如 何 将 音乐 切 
分 成 层级 结构 的 ? 已 经 有 少量 研究 对 此 进行 了 探 
讨 。Doelling 和 Poeppel (2015) 给 音乐 家 和 非 音乐 
家 呈现 真实 音乐 片段 ， 每 个 音乐 片段 呈现 13 秒 。 
这 些 音乐 片段 的 播放 速度 有 快 有 慢 ， 比 如 速度 快 
的 片段 每 秒 呈 现 8 个 拍子 ， 速 度 慢 的 片段 每 秒 只 
呈现 0.7 个 拍子 。 实 验 中 让 被 试 完成 音 高 判断 任 
务 , 用 MEG 考察 听 者 对 音乐 的 在 线 加 工 过 程 。 结 
果 发 现 ， 和 语言 一 样 ,， 听 者 的 大 脑 节律 也 会 对 音 
乐 拍子 形成 追踪 ,但 是 这 种 追踪 过 程 受 到 音乐 经 
验 的 调节 。 对 于 各 种 播放 速度 的 音乐 , 音乐 家 的 
大 脑 中 都 会 形成 相应 频率 的 神经 振荡 ， 比 如 8 Hz 
和 0.7 Hz 的 振荡 , 并 且 这 种 追踪 过 程 随 着 音乐 训 
练 年 限 的 增长 而 增强 ; 与 此 相对 , 非 音 乐 家 的 大 
脑 节律 只 会 追随 快速 音乐 ,并 不 能 对 慢 速 音乐 (1 
秒 呈 现 的 音符 少 于 1 个 ) 进 行 追 踪 。 拍 子 按照 一 定 
强 弱 规律 的 循环 往复 就 构成 更 高 层级 的 节拍 。 
Nozaradan, Peretz, Missal 和 Mouraux (2011) 同 时 
考察 了 大 脑 加 工 拍子 和 节拍 的 神经 机 制 。 实 验 中 
选取 8 名 有 音乐 经 验 的 被 试 , 给 被 试 呈现 音 高 相 
同 的 纯音 序列 ， 每 秒 呈 现 2.4 拍 。 要求 被 试听 这 个 
纯音 序列 ， 或 者 把 序列 想象 成 二 拍子 节拍 类 型 或 
者 三 拍子 节拍 类 型 ,由 于 拍子 的 频率 是 2.4 Hz, 


除了 乐句 之 外 , 在 乐句 之 下 和 乐句 之 上 还 存 
在 其 他 的 结构 ， 人 们 能 否 加 工 不 同音 乐 层级 结构 
的 边界 ? Zhang, Jiang, Zhou 和 Yang (2016) 采 用 音 
乐 家 和 非 音 乐 家 两 组 被 试 , 选用 自然 音乐 作为 实 
验 材料 ,每 一 段 音乐 材料 中 包含 三 种 不 同 层级 的 
边界 ,层级 从 低 到 高 依次 是 乐 节 边界 、 乐 句 边界 
和 乐 段 边界 。 实 验 中 给 两 组 被 试 呈现 这 些 音乐 片 
段 ， 为 了 保证 被 试 认真 听 音 乐 , 在 20% 的 试 次 中 
被 试 需要 完成 一 个 简单 的 再 认 任 务 。ERPs 结果 发 
现 , 音乐 家 在 所 有 结构 边界 处 都 诱发 了 CPS, 并 
AL CPS 的 波幅 随 着 边界 层级 升 高 而 增 大 ， 表明 音 


此 二 拍子 节拍 的 频率 是 1.2 Hz, 三 拍子 节拍 的 频 
率 是 0.8 Hz. Xt EEG (electroencephalography) 信 号 
进行 分 析 发 现 ， 三 种 条 件 下 被 试 大 脑 中 都 出 现 了 
2.4 Hz 的 响应 ; 更 为 重要 的 是 ， 尽 管 声音 刺激 在 
三 种 条 件 下 都 是 一 样 的 ， 想象 二 拍子 节拍 条 件 下 
出 现 了 1.2 Hz 响应 , 想象 三 拍子 节拍 条 件 下 出 现 
了 0.8 Hz 响应 。 实 验 结果 表明 ,我 们 的 大 脑 可 以 
同时 追踪 拍子 和 节拍 组 成 的 层级 结构 。 

以 上 研究 表明 , 除了 乐句 结构 ， 听 者 还 能 实 
时 感知 乐句 之 下 和 乐句 之 上 的 其 他 结构 ， 即 能 够 
感知 音乐 层级 结构 ， 并 且 在 大 脑 中 形成 层级 表 


乐 家 能 够 识别 不 同 层级 结构 的 边界 ,并 且 在 大 脑 


征 。 对 于 音乐 层级 结构 感知 机 制 的 研究 ， 目 前 还 


中 对 音乐 层级 结构 形成 层级 表征 。 非 音乐 家 只 在 
最 大 边界 处 诱发 CPS， 此 外 在 所 有 边界 处 诱发 了 
前 部 分 布 的 负 波 。 边 界 处 的 负 波 可 能 表明 非 音乐 
家 以 另外 一 种 策略 加 工 边 界 (Neuhaus et al., 2006), 
但 是 由 于 条 件 之 间 负 波 没 有 差异 ， 说 明 他 们 虽然 
可 以 识别 边界 但 是 并 不 能 够 加 以 区 分 。 两 组 参与 


停留 在 相对 基础 的 探索 阶段 ， 之 后 可 以 进一步 

考察 大 脑 节 律 是 否 能 够 追随 更 大 时 间 尺 度 的 音 

乐 结构 。 

1.3 ”语言 、 音 乐 层级 结构 感知 的 比较 
综 上 所 述 ,在 语言 和 音乐 呈现 过 程 中 ， 人 们 

均 可 以 借助 结构 和 韵律 线索 ,识别 出 不 同 层级 结 
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构 的 边界 ， 从 而 完成 对 于 连续 声音 信号 的 切 分 过 
程 。 在 层级 结构 的 感知 过 程 中 ， 两 个 领域 共享 类 
似 的 认 知 神经 机 制 ， 这 表现 在 以 下 两 个 方面 。 第 
一 ,在 加 工 语言 和 音乐 结构 边界 时 , 产生 了 相似 
的 ERP 成 分 ， 即 头皮 中 后 部 分 布 的 正 向 脑 电波 
CPS. 第 二 ， 对 于 连续 语 流 和 音乐 的 切 分 过 程 ， 都 
是 通过 大 脑 节律 追踪 声音 信号 频率 实现 的 。 
除了 相似 性 , 语言 和 音乐 层级 结构 的 感知 也 
表现 出 一 定 的 差异 。 首 先 , 虽然 人 们 均 能 识别 出 
语言 和 音乐 层级 结构 , 但 是 形成 层级 表征 的 条 件 
存在 差异 。 在 语言 领域 , 人们 通过 内 隐 学 习 即 可 
对 语言 层级 结构 形成 层级 表征 ; 但 是 对 于 音乐 而 
言 ， 对 音乐 层级 结构 形成 层级 表征 需要 借助 专业 
的 音乐 训练 。 此 外 , 虽然 加 工 语言 和 音乐 结构 边 
界 都 诱发 了 CPS, 但 是 CPS 的 潜伏 期 存在 差异 ， 
语言 CPS 在 边界 前 音节 处 诱发 ， 而 音乐 CPS 在 边 
界 后 音符 处 诱发 。 在 加 工 不 同 层 级 的 边界 时 ， 随 
着 结构 层级 的 增高 ， 语 言 CPS 主要 表现 为 潜伏 期 
的 系统 变化 ,而 音乐 CPS 表现 为 波幅 的 逐渐 增 
大 。 因 此 , 语言 和 音乐 CPS 的 认 知 意义 、 以 及 两 
个 领域 结构 感知 的 认 知 和 神经 机 制 有 待 进一步 比 
较 和 厘清 。 


2 新 信息 在 不 同 层级 结构 中 的 整合 


在 感知 层级 结构 的 基础 之 上 , 我 们 还 需要 将 
新 出 现 的 语言 或 者 音乐 事件 整合 到 不 同 层级 结构 
的 背景 信息 之 中 ,如 此 才能 形成 连贯 的 表征 和 理 
解 。 那 么 , 不 同 层级 的 整合 过 程 是 如 何 共 同 发 生 
的 ? 它们 在 加 工 进程 、 加 工 难度 和 加 工 脑 区 等 方 
面具 有 相似 特征 ， 还 是 存在 差异 呢 ? 
21 不 同 语言 层级 结构 中 的 语义 整合 


究 。Zhou 等 人 (2010) 使 用 汉语 句子 作为 实验 材料 ， 
用 违反 范式 考察 了 句子 之 中 两 种 层级 的 语义 整合 
过 程 。 实 验 中 , CRRA A BAEK 
矿 礁 ”"。 对 这 个 句子 进行 修改 ,形成 两 种 层级 的 语 
义 违反 。 低 层级 的 违反 是 量词 -名 词 构成 的 名 词 短 
语 的 违反 ， 比 如 “外 堵 硒 殉 一 后 友和 萝 ” 高 层级 的 
违反 是 动词 -名 词 构成 的 动 宾 短语 的 违反 ， 比 如 
“pE BPE- o HREM, FERRE 
反 都 诱发 了 N400 成 分 ,也 就 是 不 同 层级 的 语义 
整合 都 发 生 在 400 ms 左右 的 时 间 窗 内 。 采用 德语 
句子 作为 实验 材料 , 研究 者 们 得 到 了 一 致 的 结果 
(Zhang, Jiang, Saalbach, & Zhou, 2011)。 这 两 项 研 
究 至 少 表明 ,在 句子 之 内 ,不同 层级 短语 的 整合 
过 程 都 是 即时 发 生 的 。 

一 些 研 究 者 使 用 语 篇 作为 实验 材料 ， 考察 了 
更 大 时 间 尺 度 上 的 整合 进程 。 实 验 中 首先 给 被 试 
听觉 播放 一 个 语 篇 背景 ,例如 “As agreed upon, 


Jane was to wake her sister and her brother at five 


o’clock in the morning. But the sister had already 
washed herself, and the brother had even got 
dressed”。 然 后 视觉 (van Berkum, Hagoort, & 
Brown，1999) 或 者 听觉 (van Berkum, Zwitserlood, 
Hagoort, & Brown, 2003) 星 现 一 个 句子 ,“Jane told 
the brother that he was exceptionally quick/slow”, 
最 后 一 个 词 是 关键 词 。 关 键 词 与 最 后 一 个 句子 之 
间 的 整合 是 较 低 层级 的 句子 整合 ,关键 词 与 语 篇 
背景 的 整合 是 高 层级 的 语 篇 整合 。 不 难看 出 ， 如 
果 仅 考虑 最 后 一 个 句子 ,不 论 关 键 词 是 quick 还 
是 slow 都 是 语义 合理 的 。 如 果 关 键 词 是 slow 时 
被 试 察觉 到 违反 , 一 定 是 被 试 将 关键 词 整合 到 高 
层级 的 语 篇 背景 之 中 了 。 结 果 发 现 ,无 论 采 用 听 


人 研究 者 们 主要 采用 语义 违反 范式 , 考察 了 语 
义 在 不 同 层级 结构 中 的 整合 过 程 。 对 于 加 工 进程 ， 
存在 两 种 不 同 的 观点 。 一 阶段 模型 认为 (Hagoort & 
van Berkum, 2007), 不 同 层级 的 语义 整合 是 同时 
进行 的 ,在 我 们 接触 到 新 信息 时 ， 这 些 不 同 层级 
的 语义 整合 也 就 即时 发 生 了 。 与 此 相对 ， 二 阶段 
模型 认为 (Cutler & Clifton, 1999; Kintsch, 1998), 
不 同 层级 的 整合 过 程 是 先后 进行 的 ， 低 层级 语义 
整合 先 发 生 ， 在 此 基础 上 才 会 进行 高 层级 语义 整 
合 。 那 么 , 不 同 层级 的 整合 过 程 到 底 是 先后 进行 
还 是 同时 发 生 的 ? 采用 具有 高 时 间 分 辩 率 的 
ERPs 技术 ， 研 究 者 们 对 这 个 问题 进行 了 实证 研 


觉 或 者 视觉 呈现 最 后 一 个 句子 ， 关 键 词 与 语 篇 违 
反 时 都 诱发 了 更 大 的 N400， 表明 人 们 能 够 将 新 出 
现 的 单词 整合 到 高 层级 的 语 篇 背景 之 中 。 进 一 步 
的 比较 发 现 , 语 篇 N400 与 句子 N400 在 形态 、 洪 
伏 期 、 头 皮 分 布 上 都 不 存在 差异 ， 表明 句子 整合 
和 语 篇 整合 是 同时 发 生 的 ， 并 不 存在 先后 之 分 。 

不 同 层 级 的 语义 整合 在 加 工 难度 上 是 否 有 区 
别 仍然 存在 争议 。 一 些 实验 结果 支持 没有 差异 。 
例如 van Berkum 等 人 (1999, 2003) 发 现 , 无 论 口语 
加 工 还 是 书面 语 加 工 ， 当 新 出 现 的 词语 与 所 在 名 
子 或 者 语 篇 语义 违反 时 ， 都 会 诱发 N400 效应, 并 
AL N400 在 潜伏 期 、 波 幅 、 头 皮 分 布 上 都 没有 区 
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别 ， 表 明 句 子 和 语 篇 两 种 层级 的 语义 整合 并 不 在 
在 难度 差异 。 但 是 另外 一 些 ERPs 研究 却 发 现 高 
层级 的 语义 整合 过 程 难度 更 大 。 例 如 ，Zhou 等 人 
(2010) 发 现 ， 尽 管 不 同 层级 的 语义 违反 都 诱发 了 
相似 的 N400 效应 , 但 是 相 比 于 低层 级 的 名 词 短 
语 违反 ， 更 高 层级 的 动 宾 短语 违反 还 诱发 了 头皮 
后 部 分 布 的 晚期 正成 分 表明 高 层级 语义 整合 在 
后 期 需要 耗费 更 多 的 认 知 资源 。 

除了 加 工 进 程 和 加 工 难 度 ， 研 究 者 还 用 fMRI 
比较 了 不 同 语言 层级 结构 的 整合 脑 区 。 实 验 中 ， 
研究 者 将 这 个 故事 分 别 按照 词 语 、 句 子 或 者 段落 
截 开 ,然后 随机 排列 ,形成 三 种 材料 版 本 (Lerner, 
Honey, Silbert, & Hasson, 2011)。 通 过 不 同时 间 尺 


启动 刺激 在 句法 上 的 关系 ,考察 句法 整合 过 程 。 
ERPs 研究 发 现 ， 当 目标 和 艾 与 背景 信息 句法 违反 
时 , 相 比 句法 合理 , 会 在 100~350 ms 处 诱发 早期 
右前 负 波 (early right anterior negativity, ERAN) 
(Guo & Koelsch, 2015, 2016; Jentschke, Friederici, 
& Koelsch, 2014; Koelsch, Gunter, Friederici, & 
Schréger, 2000; Koelsch, Vuust, & Friston, 2018), 
BY A A Wl) al OF AT TB ff Bk (early right anterior 
negativity, RATN) (Patel, Gibson, Ratner, Besson, 
& Holcomb, 1998)。 这 种 前 部 负 波 反映 早期 的 句法 
加 工 过 程 ,一 般 解 释 为 对 于 句法 违反 的 探测 。 除 
此 之 外 , 还 在 晚期 阶段 诱发 了 N5 (Koelsch et al., 
2000; Poulin-Charronnat, Bigand, & Koelsch, 2006) 


度 的 语义 连贯 性 操作 ， 考 察 词 语 、 句 子 、 段 落 三 
种 不 同 层级 结构 的 整合 脑 区 。 除 此 之 外 ,将 整个 
故事 完全 道 序 播放 作为 基线 条 件 。 结 果 发 现 ， 随 
着 层级 结构 逐渐 递增 ， 加 工 脑 区 从 初级 听觉 皮层 
向 顶 叶 皮层 、 额 叶 皮 层 这 些 更 高 级 的 脑 区 移动 
在 加 工 脑 区 上 也 表现 出 层级 分 布 。 极 哑 人 对 于 手 
语 的 加 工 也 得 到 了 类 似 的 结果 。Inubushi 和 Sakai 
(2013) 以 日 语 手语 作为 实验 材料 ， ACS AE 
加 工 日 语词 汇 、 句 子 、 语 篇 时 ， 随 着 语言 层级 结 
构 的 增加 ， 前 额 皮 层 的 激活 区 域 和 激活 强度 也 会 
逐渐 增 大 。 


或 者 LPC (Lagrois, Peretz, & Zendel, 2018; Patel et al., 
1998; Zendel, Lagrois, Robitaille, & Peretz, 2015), 
反映 和 声 的 整合 过 程 和 对 于 音乐 结构 的 再 分 析 。 
MEG (Maess, Koelsch, Gunter, & Friederici, 2001) 
研究 发 现 , 句法 违法 相 比 句法 合理 条 件 ， 在 布 洛 
卡 区 以 及 右 侧 镜像 区 域 出 现 了 更 多 的 激活 。 从 这 
些 研究 可 以 看 出 ， 听众 能 够 顺利 地 将 当前 信息 整 
合 到 背景 信息 之 中 。 

上 述 研 究 中 的 音乐 背景 , 仅仅 是 一 组 较 短 的 
和 和弦 或 者 旋律 序列 (例如 通常 包含 4 个 或 者 7 个 和 
弦 ), 句法 整合 过 程 发 生 在 乐句 或 者 乐句 之 下 水 


综 上 所 述 , 研究 者 们 比较 了 新 信息 在 不 同 语 
言 层级 结构 中 的 整合 过 程 。 在 加 工 进程 上 , 不 同 
层级 的 语义 整合 都 是 即时 发 生 的 ， 并 不 存在 先后 
之 分 。 在 加 工 难 度 上 是 否 不 同 仍然 存在 争议 , 一 
部 分 研究 支持 没有 差异 ， 另 外 一 些 研究 认为 更 高 
层级 的 整合 过 程 需要 耗费 更 多 的 认 知 资源 。 在 加 
工 脑 区 上 , 不 同 的 大 脑 区 域 分 别 负责 不 同 层 级 的 
语义 整合 。 

22 ”不同 音乐 层级 结构 中 的 句法 整合 


平 。 除 了 乐句 和 乐句 之 下 的 句法 整合 ,听众 能 否 
完成 更 高 层级 的 句法 整合 过 程 ? 最 近 的 几 项 EEG 
人 研究 对 此 进行 了 考察 。 Koelsch, Rohrmeier, Torrecuso 
和 Jentschke (2013) 选 用 的 实验 材料 包含 两 个 乐句 ， 
最 后 一 个 和 弱 是 目标 和 弦 。 保 持 目标 和 弦 与 第 二 
个 乐句 不 变 ， 操 纵 第 一 个 乐句 的 调 性 ， 使 得 目标 
和 弱 与 更 高 层级 的 第 一 个 乐句 之 间 的 句法 依存 关 
系 合理 或 者 不 合理 ,结果 发 现 , 与 低层 级 句法 违反 
一 样 (Jentschke et al., 2014; Koelsch et al., 2000)， 高 


与 语言 具有 明确 的 语义 不 同 , 音乐 的 意义 通 
常 是 模糊 不 确定 的 , 但 是 音乐 具有 相对 明确 的 句 
法 规则 ， 即 音符 的 组 织 和 排列 需要 遵循 一 组 特定 
的 规则 ( 马 谐 , 杨 玉 芳 ， 张 秋月 , 2016; 张 晶 晶 ， 杨 
玉 芳 , 2017; Jala, HE, MEF, 2012)。 因 
此 研究 者 们 通常 从 句法 入 手 , 通过 句法 违反 范式 ， 
考察 不 同音 乐 层级 结构 中 的 句法 整合 。 

研究 者 们 首先 考察 了 低层 级 音乐 句法 的 整合 
过 程 。 实 验 中 给 被 试 曙 现 和 弦 或 者 旋律 序列 作为 
启动 刺激 ,之 后 呈现 目标 刺激 。 操 纵 目 标 刺激 与 


层级 句法 违反 同样 诱发 了 早期 前 部 负 波 ERAN 和 
晚期 负 成 分 N5， 表 明 听 众 可 以 完成 乐句 之 外 的 名 
法 整合 过 程 。 采 用 类 似 的 实验 材料 , 一 些 研究 者 
发 现 乐 句 之 外 的 句法 整合 受到 结构 复杂 度 的 影响 ， 
相 比 简单 的 线性 结构 ， 骨 套 结构 的 整合 过 程 更 加 
依赖 于 专业 的 音乐 训练 (Ma, Ding, Tao, & Yang, 
2018a; Ma, Ding, Tao, & Yang, 2018b)。 

由 此 可 见 ， 人们 在 聆听 音乐 时 ， 既 可 以 进行 
乐句 之 内 的 句法 整合 ， 也 可 以 进行 乐句 之 外 的 句 
BIER, 那么 这 两 种 不 同 层级 的 句法 整合 过 程 是 
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如 何 共 同 进行 的 ? Zhang，Zhou，Chang 和 Yang 
(2018) 采 用 两 个 乐句 作为 实验 材料 , 分 别 操纵 最 
后 一 个 目标 和 弦 与 第 一 个 乐句 和 第 二 个 乐句 之 间 
的 句法 合理 性 ， 同 时 考察 了 乐句 之 内 、 乐 句 之 外 
两 种 层级 的 句法 整合 。 结 果 发 现 , 不 同 层 级 的 句 
法 整合 都 能 发 生 。 在 时 间 进 程 上 ， 只 有 乐句 之 内 
的 句法 违反 在 早期 诱发 ERAN 效应 ,表明 低层 级 
的 句法 整合 过 程 更 早 发 生 。 在 晚期 阶段 不 同 层级 
的 句法 整合 在 NS 上 存在 交互 作用 ,可 能 表明 低 
层级 句法 整合 存在 优先 性 。 
使 用 时 间 尺 度 更 大 的 音乐 材料 (长 度 为 4 分 
15 秒 ), Farbood, Heeger, Marcus, Hasson 和 Lerner 
(2015) 进 一 步 考 察 了 不 同 层级 音乐 结构 的 整合 脑 
区 。 实 验 中 将 这 个 音乐 片段 按照 小 节 、 乐 句 或 者 
乐 段 截 开 再 随机 排列 ， 考察 被 试 在 加 工 不 同 的 音 
乐 版 本 时 脑 区 激活 情况 。 结 果 发 现 ， 音乐 结构 连 
贯 性 系统 地 影响 脑 区 激活 ， 原 版 本 相 比 随机 排列 
版 本 激活 更 多 的 额 叶 、 顶 叶 等 高 级 皮层 区 域 , 表 
明 听 者 至 少 可 以 完成 乐 段 层 面 的 音乐 整合 。 

总 而 言 之 ， 越 来 越 多 的 研究 支持 听 者 能 够 将 
新 出 现 的 音乐 事件 整合 到 不 同 的 层级 结构 之 中 。 
一 些 研究 对 音乐 中 不 同 层 级 的 整合 过 程 进 行 了 比 
较 , 发 现 低 层级 整合 更 早 发 生 , 并 且 在 加 工 上 可 
能 具有 优先 性 。 不 同 层级 的 音乐 整合 在 加 工 脑 区 
上 也 表现 出 一 定 的 层级 性 ， 随 着 音乐 层级 结构 的 
逐渐 递增 , 加 工 脑 区 逐渐 从 初级 听觉 皮层 向 更 高 
级 的 脑 区 移动 。 
23 语言 、 音 乐 层级 结构 中 整合 过 程 的 比较 

综 上 所 述 , 在 感知 层级 结构 的 基础 之 上 ， 人 
们 能 够 将 新 出 现 的 语言 和 音乐 事件 整合 到 不 同 层 
级 的 结构 之 中 ， 从 而 形成 连贯 的 理解 ， 顺利 地 完 
成 交流 过 程 。 在 认 知 神经 机 制 上 ， 两 个 领域 的 层 
级 整合 过 程 表 现 出 一 定 的 相似 性 。 首 先 ， 高 层级 
整合 与 低层 级 整合 会 诱发 类 似 的 ERP 成 分 ， 比 如 
语言 中 的 N400 和 音乐 中 的 N5。 其 次 , 在 加 工 脑 
区 上 ， 随 着 整合 层级 的 增高 ,加工 脑 区 从 感觉 皮 
层 向 更 高 级 的 认 知 皮层 移动 , 在 脑 区 上 均 表 现 出 
层级 分 布 。 

语言 和 音乐 层级 结构 中 的 整合 过 程 也 存在 差 
异 。 首 先 , 在 语言 领域 ， 虽 然 一 些 研 究 发 现 高 层级 
整合 需要 付出 更 多 的 认 知 努力 , 但 是 大 量 研究 都 
表明 不 同 层级 的 整合 过 程 是 共同 发 生 的 。 对 于 音 
RMR, 高 层级 整合 的 心理 现实 性 仍然 有 待 进 


步 验 证 , 早期 的 研究 甚至 认为 音乐 中 只 存在 此 时 
此 刻 的 加 工 ， 更 高 层级 的 整合 过 程 并 不 存在 
(Tillmann & Bigand, 2004)。 这 或 许 是 因为 音乐 中 
缺乏 精确 的 意义 辅助 加 工 。 此 外 , 在 加 工 进程 上 ， 
语言 中 不 同 层级 的 整合 过 程 是 同时 发 生 的 , 但 是 
在 音乐 中 ,低层 级 整合 过 程 更 早 发 生 ， 具有 一 定 
的 优先 性 。 加 工 进程 上 的 差异 ， 可 能 也 表明 音乐 
中 高 层级 结构 中 的 整合 难度 更 大 。 


3 ”总结 与 展望 


现 有 研究 采用 类 似 的 实验 方法 和 实验 范式 ， 
从 切 分 和 整合 两 个 方面 考察 比较 了 语言 和 音乐 层 
级 结构 的 加 工 ， 研 究 结 果 对 于 理解 语言 和 音乐 加 
工 的 本 质 ， 以 及 人 类 更 一 般 的 交流 机 制 起 着 重要 
的 作用 。 尽 管 如 此 ,还 有 很 多 问题 需要 探索 。 首 
先 , 语言 和 音乐 层级 结构 的 感知 研究 可 以 进一步 
深入 。 关 于 语言 和 音乐 结构 边界 的 研究 虽然 数量 
不 少 , 但 是 大 部 分 研究 都 局 限 在 单独 的 语调 短语 
边界 和 乐句 边界 ,对 于 其 他 结构 边界 乃至 层级 结 
构 边 界 的 感知 ， 以 及 层级 边界 感知 的 认 知 神经 机 
制 ， 仍 然 有 待 更 多 的 研究 进行 探索 和 验证 。 另 外 ， 
语言 和 音乐 结构 的 划分 伴随 名 法、 意义、 韵律 等 
BR, 那么 在 边界 感知 过 程 中 ,， 哪 一 种 线索 起 着 
更 重要 的 作用 , 或 者 每 种 线索 分 别 具 有 什么 作用 ， 
这 些 问 题目 前 并 不 清楚 。 

其 次 , 已 有 研究 发 现 人 们 会 将 即将 出 现 的 语 
言 和 音乐 事件 整合 到 不 同 层级 的 背景 信息 之 中 ， 
接 下 来 我 们 可 以 进一步 探讨 不 同 层级 的 整合 过 程 
受到 哪些 因素 影响 ,比如 Egidi FI Caramazza (2016) 
发 现 , 不 同 层级 的 语义 整合 受到 实验 任务 的 影 
响 。 当 被 试 任务 是 被 动 的 阅读 理解 时 ， 局 部 整合 
占据 优势 ， 把 任务 换 成 主动 的 合理 性 判断 时 ， 高 
层级 的 整合 过 程 更 加 重要 。 除 此 之 外 ,不同 层级 
的 整合 还 可 能 受到 被 试 知识 经 验 的 影响 (Ma et al., 
2018a; Ma et al., 2018b)。 例 如 , Ma 等 人 (2018b) 选 
取 非 音乐 家 、 音 乐 爱好 者 、 音 乐 家 三 组 音乐 训练 
程度 依次 提高 的 被 试 , 分 别 给 他 们 呈现 包含 嵌 套 
结构 的 西方 音乐 序列 ,结果 发 现 ， 只 有 音乐 家 才 
能 完成 高 层级 句法 整合 过 程 ， 说 明 至 少 对 于 中 国 
被 试 而 言 ,在 加 工 西 方 音乐 时 ,高 层级 的 整合 过 
程 可 能 依赖 于 专业 音乐 训练 。 

BOA, 语言 和 音乐 层级 结构 加 工 的 关系 有 待 
深入 探讨 。 现 有 研究 虽然 采用 相似 的 实验 范式 和 
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实验 方法 ， 考察 了 语言 、 音 乐 层 级 结构 的 感知 和 
整合 过 程 ， 也 发 现 了 音乐 和 语言 在 这 两 个 过 程 上 
存在 一 些 类 似 的 认 知 和 神经 机 制 , 但 是 目前 并 没 
有 一 个 研究 同时 考察 语言 和 音乐 层级 结构 的 加 工 
因此 对 比 研 究 吸 需 开 展 。 男 外 ， 加 工 语言 和 音乐 
层级 结构 时 类 似 的 认 知 和 神经 机 制 也 需要 进一步 
挖掘 探究 。 比 如 ,加工 语 言 和 音乐 层级 结构 边界 
都 会 诱发 脑 电 成 分 CPS, 但 是 一 些 研 究 发 现 两 者 
CPS 的 潜伏 期 存在 差异 , 一 些 研究 认为 潜伏 期 差 
异 A; TF. Æ (Glushko, Steinhauer, DePriest, & 
Koelsch, 2016); 此 外 ,对 音乐 CPS 的 MEG 数据 
进行 源 分 析 (Kn6sche et al.，2005) 和 fMRI 的 研究 
(Nan et al., 2008) 发 现 ， 在 乐句 边界 处 激活 了 涉及 
注意 和 记忆 的 加 工 脑 区 , 说 明 音 乐 CPS 可 能 反映 
更 高 层次 的 认 知 加 工 , 那么 语言 CPS 是 不 是 也 是 
DORE, 这些 问题 仍然 有 待 回答 。 
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Abstract: In language and music development, smaller elements combine into larger units, which 
eventually form hierarchical structures. Previous studies have found that listeners can segment continuous 
stream of speech and music into hierarchies and represent them in a hierarchical way. On the basis of 
perception, listeners can also integrate incoming language and music events into hierarchical structures to 
form a coherent understanding and ultimately complete the communication smoothly. Future studies should 
analyze the role of boundary clues in hierarchical structure perception, examine the influencing factors of 
integration processes at different time scales, and further explore the relationship between language and 
music hierarchical structure processing. 
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